跳到主要内容

实用机器学习1.4

简介

工业应用

角色

  • 领域专家
  • SDE 工程师
  • 数据科学家
  • 机器学习专家

升级路径

课程话题

数据 收集处理收据 训练 部署 监控

半监督学习

数据 3 个特性

自学习

众包挑战点

  • 不能太复杂
    • 多少任务、多少时间、计算成本
  • 质量控制

主动学习

自训练

数据清理

数据错误

数据转换

特征工程

数据总结

流程表

机器学习介绍

类型

  • 监督学习
    • 自监督学习
  • 半监督学习
    • 自训练
  • 无监督学习
    • 类、分布,对抗模型,clustering, density estimation (GAN)
  • 强化学习

组件

  • 模型
  • 损失函数
  • 目标
    • 最小化损失
  • 优化

模型类型

  • 决策树
  • 线性模型
  • 核函数
  • 神经网络

决策树

分类树,可以做分类,也可以做回归

好处是可解释,常用语保险等需要解释的行业 坏处,非常不稳定,随着树变化。

工业界用的最多。结果还不错。不用调参。第一选择。

多次随机树,合并,提升稳定性

梯度提升决策树

残差

线性模型

最简单也同样最常用的模型。

参考